Vimos que podemos utilizar uma estatística, como \(\bar{X}\), para estimar um parâmetro populacional, como a média populacional \(\mu\).
Após coletarmos uma amostra aleatória calculamos \(\bar{x}\), que é a nossa estimativa para \(\mu\). Chamamos esta estimativa de estimativa pontual.
Uma estimativa pontual fornece apenas um único valor plausível para o parâmetro. E sabemos que ela pode ser diferente para cada amostra obtida: distribuição amostral.
O ideal é que se reporte não só a estimativa, mas também a sua imprecisão.
Duas maneiras: fornecer a estimativa juntamente com o seu erro-padrão ou fornecer um intervalo de valores plausíveis para o parâmetro de interesse (intervalo de confiança).
Suponha que queremos estimar o parâmetro populacional \(\theta\) através de um intervalo.
Um intervalo de confiança (IC) para \(\theta\) é sempre da forma:
\[ \mbox{estimativa} \pm \mbox{margem de erro}\]
\[\hat \theta \pm \mbox{margem de erro}\]
Sendo:
\(\hat \theta\) uma estimativa pontual de \(\theta\)
margem de erro: quantidade que depende da distribuição amostral do estimador pontual de \(\theta\), do grau de confiança pré-estabelecido e do erro padrão da estimativa
Seja \(X_i \sim Bernoulli(p)\), \(i=1, \ldots, n\).
Então \(E(X_i)=p\) e \(Var(X_i)=p(1-p)\)
Se \(n\) suficientemente grande, \[\hat{p}=\frac{1}{n}\sum_{i=1}^nX_i\approx N\left(p,\frac{p(1-p)}{n}\right)\]
Seja \(1-\alpha\) o grau de confiança do intervalo
Geralmente usamos \(\alpha=0.05\), então o grau de confiança é \(95\%\).
Queremos encontrar um intervalo tal que a probabilidade do intervalo conter o verdadeiro valor de \(p\) seja \((1-\alpha)\times 100 \%\)
\[ \begin{aligned} 0.95 & = P\left(-1.96\leq Z \leq 1.96\right) \\ & = P\left(-1.96\leq \frac{S_n-np}{\sqrt{np(1-p)}} \leq 1.96\right) \\ & = P\left(-1.96\sqrt{np(1-p)}\leq S_n-np \leq 1.96\sqrt{np(1-p)}\right) \\ & = P\left(\frac{-1.96\sqrt{np(1-p)}}{n}\leq \frac{S_n-np}{n} \leq \frac{1.96\sqrt{np(1-p)}}{n}\right) \\ & = P\left(\hat{p}-1.96\sqrt{\frac{p(1-p)}{n}}\leq p \leq \hat{p}+1.96\sqrt{\frac{p(1-p)}{n}}\right) \end{aligned} \]
\[\hat{p}=\frac{S_n}{n}=\bar{X}_n\]
Note que \(p\) é desconhecido, mas a variância depende da função de \(p(1-p)\), dada no seguinte gráfico:
A função \(p(1-p)\) atinge o valor máximo quando \(p=1/2\), ou seja, \(p(1-p) \leq \frac{1}{4}\).
Vimos que \(p(1-p)\leq \frac{1}{4}\), então erro-padrão é maximizado por:
\[\sqrt{\frac{p(1-p)}{n}}\leq \sqrt{\frac{1}{4n}} \quad \Longleftrightarrow \quad -\sqrt{\frac{p(1-p)}{n}}\geq -\sqrt{\frac{1}{4n}}\]
Portanto, \(0.95 \leq P\left(\hat{p}-1.96\sqrt{\frac{1}{4n}}\leq p \leq \hat{p}+1.96\sqrt{\frac{1}{4n}}\right)\).
Caso geral (conservador): Um IC de \(100(1-\alpha)\%\) para \(p\) é dado por
Veja que tivemos que escolher as quantidades \(z_{\alpha/2}\) tal que:
\[P(-z_{\alpha/2}<Z<z_{\alpha/2})=1-\alpha\]
E se usarmos a estimativa \(\hat{p}\) para também estimar o erro-padrão \(\sqrt{\frac{p(1-p)}{n}}\)?
Podemos construir o seguinte \(IC\) de \(100(1-\alpha)\%\)
\[IC(p, 1-\alpha)= \left[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}};\hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]\]
\[P(|Z|\leq z_{\alpha/2})=P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2})=1-\alpha\]
Encontrar \(z_{0.05}\) tal que \(0.90 = P\left(-z_{0.05}\leq Z\leq z_{0.05}\right)\).
\(p\): proporção de mulheres com adenomiose na população estudada.
Podemos construir o seguinte \(IC\) de \(100(1-\alpha)\%\) para \(p\).
\[IC(p, 1-\alpha)= \left[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}};\hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]\]
No exemplo: \(n = 1697\), \(\hat{p}=\frac{734}{1697}=0.433\).
Erro-padrão: \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=\sqrt{\frac{0.433\times(1-0.433)}{1697}}\)
\(95\%\) de confiança, \(\alpha=0.05\), \(z_{\alpha/2}=1.96\).
\[IC(p, 95)=[0.409\,;\,0.456]\]
Coletamos uma amostra aleatória \(X_1, X_2, \ldots, X_n\) de uma população com distribuição de Bernoulli com probabilidade de sucesso igual a \(p\), portanto com média \(p\) e a variância \(p(1-p)\) e usamos \(\bar{X}_n=\hat{p}\) para estimar \(p\).
Pelo TCL: \[\hat{p} \sim N\left(p,\frac{p(1-p)}{n}\right)\]
Propriedade da Normal: \[Z=\frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \sim N(0,1)\] \[P(-z_{\alpha/2}<Z<z_{\alpha/2})=1-\alpha\]
Então, um intervalo de \(100(1-\alpha)\%\) de confiança para \(p\):
\[IC(p, 1-\alpha)=\left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}}\right]\]
Problema: não conhecemos \(p\). Portanto, usamos:
\[IC(p, 1-\alpha) = \left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]\] ou, pelo método conservador, \[IC(p, 1-\alpha) = \left[ \hat{p} -z_{\alpha/2}\sqrt{\frac{1}{4n}}\,;\, \hat{p} +z_{\alpha/2}\sqrt{\frac{1}{4n}}\right]\]
De uma amostra aleatória de 100 alunos de uma universidade, 82 afirmaram ser não fumantes.
Construa um intervalo de confiança de 99% para a proporção de não fumantes entre todos os alunos da universidade.
\(\hat{p}=0.82, n=100, \alpha=0.01,\) e \(z_{0.005}=2.58\)
\[ \begin{aligned} IC_1(p, 0.99) &= \left[\hat{p} - z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}; \hat{p} + z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right] \\ &= \left[ 0.82 -2.58\sqrt{\frac{(0.82)(0.18)}{100}} ; 0.82 + 2.58\sqrt{\frac{(0.82)(0.18)}{100}}\right] \\ &= [0.72; 0.92] \end{aligned} \]
Podemos também calcular o \(IC\) de 99% pelo método conversador: \[ \begin{aligned} IC_2(p, 0.99) &= \left[\hat{p} - z_{\alpha/2}\sqrt{\frac{1}{4n}}; \hat{p} + z_{\alpha/2}\sqrt{\frac{1}{4n}}\right] \\ &= \left[0.82 - 2.58\sqrt{\frac{1}{400}}; 0.82 + 2.58\sqrt{\frac{1}{400}}\right] \\ &= [0.69; 0.95] \end{aligned} \]
Interpretação: Com um grau de confiança de 99%, estimamos que a proporção de não fumantes entre os alunos está entre 72% e 92% (resultado do slide anterior).
E pelo método conservador, com um grau de confiança de 99%, estimamos que a proporção de não fumantes entre os alunos está entre 69% e 95%.
Interpretação: Se várias amostras forem retiradas da população e calcularmos um \(IC\) de 95% para cada amostra, cerca de 95% desses intervalos irão conter a verdadeira proporção na população, \(p\).
INCORRETO: Dizer que "a probabilidade de que \(p\) esteja dentro do intervalo é 95%"
Por que incorreto? \(p\) é uma constante, não é variável aleatória. Ou \(p\) está no intervalo ou não está. O intervalo é que é aleatório.
A Datafolha quer fazer uma pesquisa de boca-de-urna para predizer o resultado de uma eleição com apenas dois candidatos.
Irá então selecionar uma a.a. de eleitores e perguntar em quem votou. Para esta pesquisa, o Datafolha quer uma margem de erro de 4%. Qual o tamanho de amostra necessário?
O grau de confiança é 95% e \(IC(p, 0.95) = \hat{p} \pm 1.96\times EP(\hat{p})\)
Erro padrão de \(\hat{p}\) é \(EP(\hat p) = \sqrt{p(1-p)/n}\)
Margem de erro: \(1.96 \times EP(\hat{p})=1.96\sqrt{p(1-p)/n}\)
Margem de erro desejada é 0.04. Então, o tamanho amostral necessário \(n\) é:
\[1.96\sqrt{\frac{p(1-p)}{n}}=0.04 \quad \Rightarrow \quad n=\frac{1.96^2p(1-p)}{0.04^2}\]
Problema é que não conhecemos \(p\).
Assim como para encontrar os \(IC\)'s, podemos usar o método conservador ou então usar informações obtidas em pesquisas anteriores (caso existam).
Método Conservador:
Lembre que \(p(1-p)/n\) é a variância da estimativa \(\hat{p}\) e já vimos anteriormente que \(p(1-p)\leq 1/4\).
Então, \[n=\frac{1.96^2\times (1/4)}{0.04^2}=600\]
Outra alternativa
O Datafolha fez uma pesquisa na semana passada e o resultado foi 58% votariam no candidato \(A\) e 42% no \(B\).
Podemos usar então estas estimativas: \[n=\frac{1.96^2\hat{p}(1-\hat{p})}{0.04^2}=\frac{1.96^2(0.58)(0.42)}{0.04^2}=585\]
Uma a.a. de tamanho 585 deverá resultar numa margem de erro de 4% para um IC de 95% para a proporção da população que vota no candidato \(A\).
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho
Rafael Maia